智能论文笔记

文本消息传递是计算机介导的通信（CMC）最广泛使用的形式。先前的发现表明，语言因素可以可靠地表明信息为欺骗性。例如，用户要花更长的时间并使用更多的单词来制作欺骗性消息，而不是做真实的消息。现有的研究还研究了诸如学生身份和性别等因素如何影响欺骗性信息中的欺骗和单词选择率。但是，这项研究受到小样本量的限制，并返回了与发现相矛盾的结果。本文旨在使用使用Android消息传递应用程序从大型参与者集中收集的文本消息的数据集来解决这些问题。本文的结果表明，男女参与者以及学生和非学生之间的欺骗性信息的单词选择和欺骗性信息的频率有显着差异。

translated by 谷歌翻译

FedNST: Federated Noisy Student Training for Automatic Speech Recognition

Haaris Mehmood , Agnieszka Dobrowolska , Karthikeyan Saravanan , Mete Ozay

分类：人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-06-06

联合学习（FL）启用了分布式系统中用户设备（客户端）上的最新自动语音识别（ASR）模型，从而阻止将原始用户数据传输到中央服务器。 ASR实用采用实践采用面临的主要挑战是在客户身上获得地面真相标签。现有的方法依靠客户手动抄录演讲，这对于获得大型培训语料库是不切实际的。一个有希望的替代方法是使用半/自制的学习方法来利用未标记的用户数据。为此，我们提出了Fednst，这是一种使用私人和未标记的用户数据训练分布式ASR模型的新颖方法。我们探索Fednst的各个方面，例如具有不同比例的标记和未标记数据的培训模型，并评估1173个模拟客户端的建议方法。在LibrisPeech上评估Fednst，其中960个小时的语音数据被平均分为服务器（标签）和客户端（未标记）数据，显示了仅对服务器数据训练的监督基线，相对单词错误率降低}（WERR）22.5％。

translated by 谷歌翻译